n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。
在复杂的非人脸成分干扰以及训练样本过大、训练样本之间相似度较高的条件下,原始稀疏表示分类(SRC)算法识别准确率较低。针对上述问题,提出一种基于主动表观模型的稀疏聚类(CS-AAM)人脸识别算法。首先,利用主动表观模型快速、准确地对人脸特征点进行定位,获取主要人脸信息;然后,对训练样本进行K-means聚类,将相似程度高的图像分为一类,计算聚类中心,将该中心作为原子构造过完备字典并进行稀疏分解;最后,计算稀疏系数和重构残差对人脸图像进行分类、识别。将该算法与最近邻(NN)、支持向量机(SVM)、稀疏表示分类(SRC)、协同表示分类(CRC)人脸识别算法在ORL和Extended Yale B人脸数据库上对不同样本数及不同维数的人脸图像分别进行识别率测试,在相同样本数或相同维数情况下CS-AAM算法识别率均高于其他算法。在ORL人脸库中选取样本数为210时,相同维数条件下CS-AAM算法识别率为95.2%;在Extended Yale B人脸库上选取样本数为600时,CS-AAM算法识别率为96.8%。实验结果表明,该算法能够有效地提高人脸图像的识别准确率。
传统机器学习面临一个难题,即当训练数据与测试数据不再服从相同分布时,由训练集得到的分类器无法对测试集文本准确分类。针对该问题,根据迁移学习原理,在源领域和目标领域的交集特征中,依据改进的特征分布相似度进行特征加权;在非交集特征中,引入语义近似度和新提出的逆文本类别指数(TF-ICF),对特征在源领域内进行加权计算,充分利用大量已标记的源领域数据和少量已标记的目标领域数据获得所需特征,以便快速构建分类器。在文本数据集20Newsgroups和非文本数据集UCI中的实验结果表明,基于分布和逆文本类别指数的特征迁移加权算法能够在保证精度的前提下对特征快速迁移并加权。
为了提高视频火焰识别的准确度,提出了一种基于Codebook的火焰识别方法,创新地在YUV空间使用Codebook背景模型检测火焰区域,定期更新背景,综合火焰的动静态多特征进行火焰识别.首先,提取视频中的每一帧图像,利用原始图像中R、G、B三个分量间存在的线性关系作为颜色模型,初步提取火焰颜色区域; 然后,为了利用YUV颜色空间的有利特性,将颜色空间从RGB转化到YUV, 使用Codebook背景模型进行背景学习、背景差分,提取出具有火焰颜色的动态前景; 最后,利用火焰面积变化率、区域重叠率、质心位移这3个特征来训练反向传播(BP)神经网络,通过训练好的神经网络判断视频图像是否存在火焰.选取相机位置以及方向固定的视频进行实验,所提算法在复杂的视频场景中的识别准确度达到96%以上.实验结果表明,所提算法有效提高识别的准确度,同时降低多种干扰物场景的误判率.
针对中文消费评论的情感分类问题,构建了一种基于语料库的二维坐标映射法的情感分类方法。根据中文语言特点,首先提出了基于语料库的搜索方法,使搜索更有针对性;其次,定义了提取表达情感的中文短语的规则;第三,构造了某领域的最佳种子词选取算法;最后,构造了二维坐标映射算法,通过计算评论句子的坐标值,将其映射到二维直角坐标系中,判断句子的语义倾向性。选取亚马逊网站某商家1200条与牛奶相关的评论(好、差评各600条)进行实验,首先根据最佳种子词选取算法选取“很好漏”作为最佳种子词,再根据二维坐标映射算法判断评论的情感极性,实验的平均F值达到了85%以上。实验结果表明该算法可以对消费评论进行情感分类。
针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语的问题,提出了一种基于潜在狄利克雷分配(LDA)模型的主题树检测方法。首先,运用自然语言处理(NLP)中增大信息熵的方法将相关微博整理成一棵主题树,配合狄利克雷先验α与经验值β随主题数目动态变化的设计思想,结合该模型独特的双重概率统计模式,实现了对文本中每个词“贡献度”的统计,提前处理掉干扰信息,排除垃圾数据对话题检测的影响;然后,利用该“贡献度”作为空间向量模型(VSM)改进后的参数值计算文档间相似度来提取突发话题,达到提高突发话题检测精准度的目的。提出的基于LDA模型的主题树检测方法从F值比对与人工检测两个角度进行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和TF-IDF算法相比分别高出3%、7%,且更符合人的判断逻辑。